Solo indexas una vez: atención dispersa entre capas con enrutamiento compartido Optimiza la inferencia de LLMs con CLSA: atención dispersa entre capas que comparte índices de enrutamiento, logrando hasta 7.6x de aceleración en decodificación. 2026-06-05 · 3 min